Mueve la consulta, no el caché: atención entre instancias GPU Mueve la consulta en lugar del caché KV y reduce la latencia en atención entre GPUs. Optimiza clusters H100 con RDMA. 2026-06-02 · 3 min